查看原文
其他

微调工程研究系列E02S02|开源LLM的历史:更好的基础模型

ai汤源 AI2Paradigm
2024-10-07

图|arXiv论文截图

文|Cameron R. Wolfe/汤源

𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远。

大模型四范式之微调化身,主要通过卡梅隆博士的一系列arXiv论文综述的转译研读来跟进的,作为范式认知路径构建的一环,转载于下。

开源LLM的历史之更好的基础模型
截图来自参考论文[10,12,14,15]

题记

社区公众号文章中,关于A𝕀²·ℙarad𝕚gm商业范式“挖矿”(详见附录)的工程方法,曾经转译过卡梅隆博士的提示工程论文研究综述系列,可以算作卡梅隆博士系列第一季(Season01)(暂列如下,同时会在文末做好图文链接,方便大家进阶阅读及查阅):
💡 卡梅隆博士系列第一季

▩提示工程系列

E01S01:「提示工程系列」转译(1):思维链(CoT)提示-一种实用而简单的LLM“推理”方法

E02S01:「提示工程系列」转译(2):实用提示工程-成功提示 LLM 的提示和技巧

E03S01:「提示工程系列」转译(3):提示工程进阶-当小样本学习还不足以解决问题怎么办?

E04S01:「提示工程系列」转译(4):提示合奏使LLM更可靠-简单策略挖掘更多LLM潜能

E05S01:「提示工程系列」转译(5):提示工程系列·转译(5)|从PaL到PoT,用程序辅助语言模型,释放大语言模型推理潜能

A𝕀²·ℙarad𝕚gm商业范式“化身”完全基于开源大语言模型及其工程方法-微调(fine-tuning)。近日,卡梅隆博士在他的Deep(Learning)Focus 博客上连发3篇-开源LLM的历史-作了完整论文综述,本文作为卡梅隆博士系列第二季的第二篇(E02S02-Episode 02 Season 02),也是转译其3篇中的第二篇Part Two:
开源LLM的历史:更好的基础模型(第二部分)
LLaMA、MPT、Falcon 和 LLaMA-2 是如何将开源 LLM 推向市场的...
附:微调工程研究必读·卡梅隆博士系列E01S02·开源大语言模型LLM的历史:早期-A𝕀²·ℙarad𝕚gm之化身范式 (注:会在文末做好图文链接,方便大家进阶阅读及查阅)
另:之所以对于A𝕀²·ℙarad𝕚gm商业范式的工程内容解读以卡梅隆博士的论文综述转译为主,主要考虑其专注与专业性:首先,综述选题紧跟这波AI发展脉络,非常独到而且有概括性;其次所有综述内容都是解读至少十数篇arXiv论文而来,而且行文精炼朴素,笔者奉为圭臬。
One More:在E01S02的公众号文章发布后,在𝕏上与卡梅隆博士取得了联系,并获得所转译的一系列文章的授权。

原文题记

有关大型语言模型(LLM)的开源研究非常有价值,因为它旨在使一项强大而有影响力的技术民主化(笔者注:按A𝕀²·ℙarad𝕚gm商业范式的最新迭代,已经上升到human level的智能即服务,所以这里笔者-有时自称CPO-更希望大家能升级到硅栈智能的民主化的高度来思考这个问题)。虽然开源 LLM 现在已得到普遍使用和广泛研究,但这一研究领域最初也遇到了一些难以克服的困难。也就是说,开源 LLM 一开始表现不佳,饱受批评。在本综述中,我们将研究一项改变这种说法的研究,即向所有人提供高性能的预训练 LLM。鉴于预训练语言模型的成本非常昂贵,我们将在此研究的模型尤其具有影响力。在这些高性能的基础模型创建并发布之后,很多人都可以使用这些模型进行研究,而所增加的成本微乎其微。
💡 “论文摘录”

“The capabilities of LLMs are remarkable considering the seemingly straightforward nature of the training methodology.” - from [14]

"LLM训练工程方法看似简单明了,从这一点看的话,LLMs 具备的能力令人瞩目"。- 摘自[14]

当前系列|本概述是开源 LLM 历史三部曲的第二部分。本系列的第一部分概述了创建开源 LLM 的最初尝试。在这里,我们将研究目前最流行的开源基础模型(即经过预训练但未进行微调或对齐的语言模型)。下一次,我们将介绍如何对这些模型进行微调或对齐,以创建各种有用的应用程序。

开源大语言模型LLM的早期发展

在本系列的第一部分中,我们看到早期的开源 LLM 研究提出了几个重要的基础模型,如 OPT 和 BLOOM。然而,人们普遍认为这些模型与封闭源代码的预训练模型(如 GPT-3)相比,性能相当差。我们该如何解决这个问题呢?首先,我们需要深入了解 LLM 的训练过程。
训练流水线|LLM 的训练分为几个步骤,如下图所示。首先,我们通过大量原始文本对模型进行预训练。然后,我们使用 SFT 和 RLHF 等技术进行对齐。最后,我们可以进行进一步的微调或上下文学习,将 LLM 专用于特定任务。
最近,我们看到了强有力的经验证据,证明语言模型的大部分知识是在预训练过程中获得的(详见注释1)。对齐过程只是教会模型正确地格式化或表述这些在预训练中获得的知识。正如 LIMA [3] 所提出的,这一观点被称为 "肤浅对齐假说"(Superficial Alignment Hypothesis)。虽然这一假说似乎与本综述的主题并不完全相关,但我们从中可以学到一些重要的东西--预训练不足的模型不太可能通过微调或对齐得到 "修复"。
💡 “论文摘录”

“A model’s knowledge and capabilities are learnt almost entirely during pretraining, while alignment teaches it which subdistribution of formats should be used when interacting with users.” - from [3]

"模型的知识和能力几乎完全是在预训练过程中学习的,而对齐则是教它在与用户交互时应使用哪种格式的子分布"。- 摘自 [3]

解决方案是什么?|鉴于最初的开源 LLM 性能不佳,人们很快就意识到,要想取得任何进展,社区需要从头开始重新创建更高质量的基础模型。此外,这些模型还需要通过更多的数据进行预训练,这样才能提高其性能。鉴于预训练的成本高得惊人(尤其是在对大量数据进行预训练时),这样的工作非同小可。创建更好的开源基础模型必须由有足够资金的组织(如 Meta 或 MosaicML)来完成,这些组织可以支付这些模型的训练费用,并将其免费提供给社区中的其他人。

基础模型改进

最初,开源 LLM 的性能太差,不值得大量使用和探索,但这个问题很快得到了解决。在这里,我们将回顾几个模型,它们通过向所有人提供强大的预训练 LLM,改变了这种看法。
LLaMA:开源质量的飞跃
LLaMA [1] 是最早发布的预训练 LLM 之一,它性能卓越,而且开源。然而,LLaMA 并不是一个单一的模型,而是一套不同的 LLM,参数规模从 70 亿到 650 亿不等。这些模型各自在性能和推理效率之间实现了不同的权衡。虽然 LLaMA 不能用于商业用途(即只能用于研究),但它仍是一项具有影响力的提案,有助于推动 LLMs 开源研究的多个方向。

“摘自论文[1]”
数据|受到 Chinchilla [2](详见注释2) 的启发,LLaMA 模型在包含超过 1.4 万亿个文本标记的语料库上进行了预训练。这个预训练数据集比之前任何开源 LLM 的数据集都要大得多。数据的来源和分布如上图所示。有趣的是,LLaMA 完全使用公开的数据源进行预训练,这意味着只要有足够的计算能力,任何人都可以复制整个预训练过程。(笔者注:卡梅隆博士这句话貌似真相了,CPO知道了当前国内的千模大战为啥在LLaMA开源后如雨后春笋般冒出来的缘由之一)
💡 “论文摘录”

GPT-4 has learned from a variety of licensed, created, and publicly available data sources, which may include publicly available personal information.” - from GPT-4 blog

"GPT-4从各种许可的、创建的和公开的数据源中了解到的信息,其中可能包括公开的个人信息"。- 摘自 GPT-4官方博客

鉴于许多专有的 LLM 都是利用不公开的内部数据进行培训的,因此这种特性尤为可取。简而言之,LLaMA 在更多方面朝着提高透明度和公开性迈出了一步。

“摘自论文[1]”

性能提升|与它的前辈相比,LLaMA 是开源 LLM 性能的巨大飞跃。尽管如此,其质量仍然落后于顶级专有 LLM(如 ChatGPT 或 GPT-4),但我们应该记得,LLaMA 模型并没有经过校准。值得注意的是,LLaMA-13B 的性能与 GPT-3 [3]相当,而 LLaMA-65B 在一些情况下优于 PaLM [4],这表明 LLaMA 套件的性能与其他广泛使用的基础模型相当。详细指标见上表。

“摘自论文[5、6、7、8]”

开源爆发|LLaMA 提议中最有趣的一点是其后的开源 LLM 研究;见上图。在 LLaMA 模型的权重公开后,开源研究社区迅速开始发布各种不同的模型变体和软件包。这些开发包括从 LLaMA 的微调版本到从笔记本电脑上高效运行任何 LLaMA 模型推断的 C++ 库。这些发展真正展示了开放研究的魅力。从仅仅通过应用程序接口与这些强大的模型进行交互,到在笔记本电脑上运行它们,我们只用了短短几周时间!

MPT:高质量、商业化和开源的LLM

“摘自论文[10]”

尽管 LLaMA 令人印象深刻,但该套件中的所有模型都不能用于商业应用--它们仅在研究方面具有价值。幸运的是,在提出 LLaMA 之后,MosaicML 很快就开发并发布了可用于商业用途(即根据 Apache 2.0 许可证发布)的 MPT 套件。MPT-7B [9]最先发布,引起了广泛的兴趣(也就是说,它基本上是 LLaMA-7B 的可商用替代品!)。事实上,在更大的 MPT-30B [10] 模型发布之前,MPT-7B 在 HuggingFace 上的下载量就超过了 300 万次!

“摘自论文[20]”

这两种模式的主要区别在于

  • 它们使用略有不同的数据组合进行预训练;见上图。
  • MPT-30B 使用更长的上下文长度(8K 个 token)进行训练(详见注释3)。

不过,这些模型都表现出色,可用于商业应用,因此在人工智能界很受欢迎。

“摘自论文[9]”

MPT 名不虚传?|尽管 LLaMA 大幅提高了开源 LLM 的最新性能,但 MPT 套件的性能却与之不相上下。特别是,MPT-7B 在各种标准基准测试中的性能与 LLaMA-7B 不相上下;见上图。此外,MPT-30B 的性能也与 GPT-3 相当。与类似大小的开源模型(如 LLaMA-30B 和 Falcon-40B)相比,MPT-30B 的性能略差;见下文。不过,在与编码相关的任务上,MPT-30B 的表现要优于这些模型,而且可以在单个 GPU 上托管(带量化)。

“摘自论文[9]”

MPT 变体|除了预训练的 MPT-7B 和 MPT-30B 模型外,还发布了多种微调 MPT 模型,如这两种 MPT 模型的 instruct 和 chat(详见注释4)版本。此外,通过对标记上下文长度为 64K 的数据进行微调,还创建了 MPT-7B 的 "StoryWriter "版本。鉴于预训练 LLM 的成本远高于微调成本,因此可以以边际成本创建各种不同的微调 MPT 变体;见下图。

但等等......还有更多!MPT模型非常有用(尤其是对那些从事商业应用的人来说),但这些模型还伴随着MosaicML发布的一整套软件(即LLM代工厂)。这些开源代码可用于预训练和微调 MPT 模型,使 MPT 套件成为探索 LLM 专业用例的极其宝贵的工具。

Falcon:达到开源性能的新高度

“摘自论文[1]”

尽管开源 LLM 取得了许多进展,但在相当长的一段时间内,现有模型在性能方面仍然落后于专有 LLM。Falcon LLM 套件的提出[11]是专有 LLM 的质量第一次真正被开源替代品所媲美。Falcon 有两种变体--Falcon-7B 和 Falcon-40B。除了获得商业授权外,这些 Falcon 模型还在大量定制语料库上进行了预训练,因此表现非常出色。值得注意的是,Falcon-40B 的指导变体在 OpenLLM 排行榜上连续几个月都是表现最好的模型(优势明显)(详见注释5)。

💡 “论文摘录”

“Challenging existing beliefs on data quality and LLMs, models trained on adequately filtered and deduplicated web data alone can match the performance of models trained on curated data.” - from [12]

"挑战现有的数据质量和 LLM 的信念,仅在经过充分过滤和重复的网络数据上训练的模型,其性能就能与在经过策划的数据上训练的模型相媲美"。- 摘自[12]

从网络中收集数据。Falcon 模型是在一个名为 RefinedWeb [12] 的海量文本语料库中训练出来的,该语料库包含超过 5 万亿个文本标记。实际用于预训练 Falcon-7B 和 Falcon-40B 的 RefinedWeb 数据分别只有 1.5 万亿和 1 万亿。虽然大多数 LLM 都是通过公共来源的策划数据进行预训练的,但 Falcon 的作者却选择完全使用网络数据(即 CommonCrawl)构建自己的预训练数据集。为了过滤这些数据,我们创建了一个新颖的管道,强调简单但有效的组件;见下图。

“摘自论文[12、13]”

RefinedWeb 语料库表明,可以从网络中有效地整理出大量高质量的文本数据,其规模超过了之前探索过的数据集。经过过滤后,在这些数据上训练出来的模型甚至可以超越在经过整理的数据源上训练出来的同类模型。

“摘自论文[12]”

用于训练 Falcon-7B 和 Falcon-40B 的确切数据集如上所示。值得注意的是,Falcon-7B 是通过纯英语数据进行训练的,而 Falcon-40B 在预训练集中插入了多种欧洲语言的数据。

新的 SOTA。目前,Falcon LLMs 的出版物尚未发布。因此,对这些模型的唯一正式评估是通过 OpenLLM 排行榜进行的,在该排行榜上,Falcon-40B 模型的表现相当出色。特别是,Falcon-40B-Instruct 在一段时间内是最先进的模型,远远超过其他模型;见下图。

“摘自开源LLM排行榜”

从质量上讲,一些从业人员声称 Falcon-40B 的性能似乎不如基于 LLaMA 的模型。虽然对这些言论的认识是有益的,但这些证据只是传闻和主观臆断。在标准化的自然语言基准测试中,Falcon LLM 的表现令人难以置信,使其长期保持开源模型中的一流水平。

LLaMA-2:当前最好的SOTA开源LLM

“摘自论文[14]”

虽然 Falcon-40B 曾在一段时间内是最先进的开源 LLM,但最近发布的 LLaMA-2 模型套件将其超越。与 LLAMA-1 类似,LLaMA-2 [14] 由多个不同的 LLM 组成,参数规模从 70 亿到 700 亿不等,并且仅使用公开数据进行预训练。LLAMA-2 模型的预训练和微调(详见注释6) 版本都已发布,但由于我们的重点是开源基础模型,因此在本概述中我们将只介绍预训练模型。

💡 “论文摘录”

“There have been public releases of pre-trained LLMs (such as BLOOM that match the performance of closed pre-trained competitors like GPT-3 and Chinchilla, but none of these models are suitable substitutes for closed product LLMs, such as ChatGPT, BARD, and Claude.” - from [14]

"已经有公开发布的预训练 LLM(如 BLOOM)与封闭式预训练竞争对手(如 GPT-3 和 Chinchilla)的性能不相上下,但这些模型都不能替代封闭式产品 LLM,如 ChatGPT、BARD 和 Claude"。- 摘自[14]

LLaMA-2 通过发布一套在海量数据集上预先训练好的性能更高的基础模型,继续缩小开源代码和闭源代码语言模型之间的性能差距。正如我们将看到的,这些模型的质量仍然无法与专有模型相提并论,但它们比之前的任何开源模型都要接近。

“摘自论文[14]”

有何不同?|LLaMA-2 采用的方法与其前身非常相似,但有一些细微(但有影响)的差别。首先,LLaMA-2 模型的预训练数据比 LLaMA-1 多了 40% - 总共 2 万亿个Tokens,而 LLaMA-1 只有 1.4 万亿个Tokens。此外,LLaMA-2 模型在训练时使用的上下文长度稍长,而且更大的模型在其底层架构中使用了分组查询关注(GQA)。有趣的是,[14] 中的作者指出,LLaMA-2 的预训练设置对已知知识更丰富的数据源进行了采样。做出这样的改变是为了强调事实来源,增加知识,减少幻觉。

“摘自论文[15]”

什么是 GQA?|正如 [15] 中提出的,GQA 是对多头自注意的一种修改,可以提高 LLM 的推理效率。典型的多头自注意机制有 N 个查询头、键头和值头,总共产生 N 个自注意头。在 GQA 中,我们将这 N 个自注意头分成若干组,每组中的键头和值头是共享的;见上图。这种方法是香草vanilla多头自我关注和多查询关注之间的一种插值,后者在所有 N 个头中使用共享的键和值投影(详见注释7)。文献[15]发现,GQA 可以提高推理速度,与多查询注意力不相上下,同时还能保持普通多头注意力的性能。

“摘自论文[14]”

LLaMA-2 真的很棒|与流行的开源模型(如 MPT、Falcon 和 LLaMA-1)相比,LLaMA-2 基本 LLM 的表现相当出色。事实上,LLaMA-2-70B 在所有任务上都创造了开源 LLM 的新纪录(见上图)。但值得注意的是,LLaMA-2 在基于编码的任务(如 HumanEval)上的表现(相对)较差,因此受到了一些批评。

与专有模型相比,LLaMA-2 基本模型的性能更差;见上图。不过,我们应该记住,这种比较是在基本 LLM 和对齐模型(如 GPT-3.5 和 GPT-4)之间进行的。与其他流行的基本 LLM(如 PaLM [4])相比,LLaMA-2 的表现更胜一筹!

商业许可|LLaMA-1 只能用于研究,而 LLaMA-2 是根据商业许可证发布的,这意味着与 MPT 和 Falcon 一样,这些模型也可以用于商业应用。不过,LLaMA-2 使用的许可证并不是标准的 Apache 2.0 许可证--它有一些从业人员应该考虑的注意事项。最值得注意的是,任何由 LLaMA-2 支持、月活跃用户超过 7 亿的实体/应用程序都必须从 Meta 获得使用 LLaMA-2 的许可。请在下面阅读有关 LLaMA-2 许可证的更多信息。

Llama 2 商业许可:https://opensourceconnections.com/blog/2023/07/19/is-llama-2-open-source-no-and-perhaps-we-need-a-new-definition-of-open/

开源LLM的发展趋势

鉴于 LLaMA、MPT、Falcon 和 Llama 2 的性能远远优于它们的前辈,我们不禁要问:是什么让这一代开源 LLM 的性能如此出色?在这里,我们将快速审视这些模型的几个关键特性,它们在催化这些模型的惊人性能和迅速流行方面具有特别重要的价值。特别是,这些模型 i) 经过了海量数据的预训练;ii) 强调推理效率。
▩更好的数据 = 更好的性能!
当前的开源 LLM 与之前的 LLM 的主要区别在于预训练所使用的数据集。OPT 和 BLOOM 等模型分别在 1,800 亿和 3,410 亿 token 上进行了训练,而当前的开源模型则在大得多的数据集上进行了预训练:
  • LLaMA:1.4 万亿Tokens

  • MPT:1 万亿个Tokens

  • Falcon:1-1.5 万亿Tokens

  • Llama 2: 2 万亿Tokens
当前的开源 LLM 将用于预训练的数据量提高了(接近)一个数量级!事实上,这些预训练数据集的规模与专有 LLM 所用的数据集类似。例如,MassiveText(即用于训练 Gopher [13] 和 Chinchilla [2]的数据集)包含大约 2.3 万亿个标记,但实际上只有一个子集用于预训练;见下图。

规模并不代表一切!除了大幅增加预训练数据量外,当前的开源 LLM 还非常注重数据的构成和质量。例如,在用于训练 MPT 的数据集中,代码的比例会有所增加,从而使生成的模型在基于编码的任务中表现得更好。此外,Falcon-40B 提出了一个全新的管道,用于从网络中构建高质量的文本语料库,而 LLaMA-2 则声称使用更新的数据管道和混合数据进行预训练。总的来说,关注预训练数据集的质量和组成似乎是近期开源 LLM 研究的一个共同趋势。
💡 “论文摘录”

“We performed more robust data cleaning, updated our data mixes, trained on 40% more total tokens, doubled the context length, and used grouped-query attention (GQA) to improve inference scalability for our larger models.” - from [14]

"我们进行了更强大的数据清理,更新了我们的数据组合,在多 40% 的总tokens上进行了训练,将上下文长度增加了一倍,并使用分组查询关注(GQA)来提高大型模型的推理可扩展性"。- 摘自 [14]

优化以加快推理速度
在决定使用开放或闭源 LLM 时,从业人员需要考虑的不仅仅是性能。付费语言模型应用程序接口(API)可能会在广泛的任务中实现令人印象深刻的性能,但它们往往无法根据特定领域的数据进行微调。但另一方面,使用开源 LLM 构建应用时的一个主要考虑因素是部署模型的成本。考虑到托管 LLM 的难度,最近的开源模型通常都进行了优化,以实现快速、简便的推理。事实上,MPT-30B[10]的大小就是为了能在单个 GPU 上运行!(笔者注:这为化身范式里的model anywhere for anyone的in-devices场景提供了可能,并将终端智能水平提升了一个等级)

“摘自论文[15、16、17]”

经过修改的架构|除了比大多数专有模型略小之外,当前的开源 LLM 还采用了多种架构技巧(如上图所示)来加快推理过程,例如

  • 低精度层规范 [https://cameronrwolfe.substack.com/i/131642185/faster-inference]

  • Flash Attention (详见注释8)[ https://cameronrwolfe.substack.com/i/131642185/faster-inference ]

  • 多查询注意 [https://cameronrwolfe.substack.com/i/131393593/falcon-architecture]

  • 平行变换器 [https://cameronrwolfe.substack.com/i/131393593/falcon-architecture]

  • 组查询关注

此外,为了提高性能,还采用了其他一些架构修改,如 RoPE 嵌入、ALiBi、SwiGLU 激活等。当前的开源 LLM 对Decoder-only的Transformer架构进行了简单的修改,以提高性能和推理速度。

最后的思考

在本综述中,我们研究了开源 LLM 从最初的低质量模型(如 BLOOM 和 OPT)到最近的强大基础模型(如 LLaMA 和 MPT)的演变过程。为了提高前代模型的性能,这些最新模型主要集中在策划更大、更高质量的数据集进行预训练,从而大幅提高了质量。鉴于高质量的基础模型是任何 LLM 应用的先决条件,这些模型对开源 LLM 的普及产生了重大影响。任何从业人员现在都可以利用强大的基础 LLM,无论是用于研究目的还是商业应用,而不必再投入大量资金从头开始预训练一个模型。

Bibliography

[1] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).

[2] Hoffmann, Jordan, et al. "Training compute-optimal large language models." arXiv preprint arXiv:2203.15556 (2022).

[3] Zhou, Chunting, et al. "Lima: Less is more for alignment." arXiv preprint arXiv:2305.11206 (2023).

[4] Chowdhery, Aakanksha, et al. "Palm: Scaling language modeling with pathways." arXiv preprint arXiv:2204.02311 (2022).

[5] Taori,  Rohan et al. “Stanford Alpaca: An Instruction-following LLaMA model.” (2023).

[6] Chiang, Wei-Lin et al. “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.” (2023).

[7] Geng, Xinyang et al. “Koala: A Dialogue Model for Academic Research.” (2023).

[8] Yuvanesh Anand, Zach Nussbaum, Brandon Duderstadt, Benjamin Schmidt, and Andriy Mulyar. GPT4All: Training an assistant-style chatbot with large scale data distillation from GPT-3.5-Turbo, 2023.

[9] “Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable Llms.” MosaicML, 5 May 2023, www.mosaicml.com/blog/mpt-7b.

[10] “MPT-30B: Raising the Bar for Open-Source Foundation Models.” MosaicML, 22 June 2023, www.mosaicml.com/blog/mpt-30b.

[11] “Introducing Falcon LLM”, Technology Innovation Institute, 7 June 2023, https://falconllm.tii.ae/.

[12] Penedo, Guilherme, et al. "The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only." arXiv preprint arXiv:2306.01116 (2023).

[13] Rae, Jack W., et al. "Scaling language models: Methods, analysis & insights from training gopher." arXiv preprint arXiv:2112.11446 (2021).

[14] Touvron, Hugo, et al. "Llama 2: Open Foundation and Fine-Tuned Chat Models." arXiv preprint arXiv:2307.09288 (2023).

[15] Ainslie, Joshua, et al. "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints." arXiv preprint arXiv:2305.13245 (2023).

[16] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).

[17] Dao, Tri, et al. "Flashattention: Fast and memory-efficient exact attention with io-awareness." Advances in Neural Information Processing Systems 35 (2022): 16344-16359.

[18] Dao, Tri. "FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning." arXiv preprint arXiv:2307.08691 (2023).


▩原文注释

1 Even the blog post for GPT-4 mentions that this seems to be the case!

2 The Chinchilla paper [2], which provides several valuable insights, shows us that increasing the size (i.e., number of parameters) of a language model is most effective when we also increase the amount of data over which the model is pre-trained.

3 Despite the trend in LLM applications toward longer context lengths, most open-source LLMs (e.g., LLaMA, Falcon, and MPT-7B) are trained using a relatively short context length of only 2K tokens.

4 Chat versions of the MPT models cannot be used commercially, as they are trained on data that cannot be used commercially (e.g., ShareGPT).

5 This model was recently dethroned on the OpenLLM leaderboard by various fine-tuned versions of LLaMA-2-70B.

6 Fine-tuned versions of LLaMA-2, called LLaMa-2-Chat, are optimized for chat use cases using both supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF).

7 Multi-query attention is used by a variety of different LLMs, even including Falcon-40B, to improve inference speed.

8 By the way, FlashAttention was recently made faster with the proposal of FlashAttention-2 [18]. Read more about it here.


说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。

-CAMERON R. WOLFE:The History of Open-Source LLMs: Better Base Models (Part Two)

https://cameronrwolfe.substack.com/p/the-history-of-open-source-llms-better


附录:𝕀²·ℙarad𝕚g𝕞智能平方范式研究

H𝕀:Humanity Intelligence [Sys1&2@BNN] 

A𝕀:Artifical Intelligence [LLM@ANN] 

𝕀²:H𝕀 𝕩 A𝕀 [bio- | silico-] 

ℙarad𝕚g𝕞:认知范式或BNN认知大模型 

A𝕀与H𝕀当前在玩一个语言游戏。A𝕀最大的问题是已知一点白外的未知的黑;H𝕀最大的问题是不断演进的sys2理性白中的sys1的黑




往期推荐



互为Prompt | 大型语言模型的预训练·GPT智能到底意味着什么?

AI平方范式智库·数学系列E03S01 | 神经网络背后的数学

AI平方范式智库·访谈系列E03S02|从语言游戏到LLM智能体

AI平方范式智库·访谈系列E03S01 | 从预训练模型到可靠可用AGI



扫码加群,

链接智库!


AI平方范式智库



继续滑动看下一个
AI2Paradigm
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存